针对现有的语音增强方法对语谱图特征关联信息表达有限和去噪效果不理想的问题,提出一种双复数卷积注意聚合递归网络(DCCARN)的语音增强方法。首先,建立双复数卷积网络,对短时傅里叶变换后的语谱图特征进行两分支信息编码;其次,将两分支中编码分别使用特征块间和特征块内注意力机制对不同的语音特征信息进行重标注;再次,使用长短期记忆(LSTM)网络处理长时间序列信息,并用两解码器还原语谱图特征并聚合这些特征;最后,经短时逆傅里叶变换生成目标语音波形,以达到抑制噪声的目的。在公开数据集VBD(Voice Bank+DMAND)和加噪的TIMIT数据集上进行的实验的结果表明,与相位感知的深度复数卷积递归网络(DCCRN)相比,DCCARN在客观语音感知质量指标(PESQ)上分别提升了0.150和0.077~0.087。这验证了所提方法能更准确地捕获语谱图特征的关联信息,更有效地抑制噪声,并提高语音的清晰度。
解耦表征学习旨在对影响数据形态的关键因素进行建模,使得某一关键因素的变化仅仅引起数据在某项特征上的变化,而其他的特征不受影响,这有利于应对机器学习在模型可解释性、对象生成和操作以及零样本学习等问题上的挑战,因此解耦表征学习一直是机器学习领域的一个研究热点。从解耦表征学习的历史与动机入手,对解耦表征学习的研究现状以及应用进行归纳总结,分析了解耦表征所具有的不变性、复用性等特性,介绍了基于生成解耦表征变差因素的研究、基于流形相互作用解耦表征变差因素的研究、基于对抗性训练解耦表征变差因素的研究,以及一种变分自编码器β-VAE的研究等最新研究动态。同时,阐述了解耦表征学习的典型应用,并对未来的研究方向作出了展望。